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摘 要 : 针对 文本 分 类 特征 选择 方法 中 的 卡 方 统计 (CHD 和 期 望 交 叉 粒 (ECE), 分 析 了 其 特点 和 不 足 。 为 了 避免 传统 CHI 
和 ECE 方法 在 不 平衡 数据 集 上 分 类 效果 差 的 问题 ， 本 文通 过 引入 调节 因子 和 除去 负 相 关 影 响 因素 , 给 出 了 改进 的 CHI 
方法 (pCHI), 并 以 加 权 的 方式 弥补 ECE 方法 倾向 于 选择 弱 区 分 能 力 高 频 特征 的 缺陷 (WECE)。 在 综合 两 种 改进 后 方法 的 
基础 上 ， 进 一 步 提 出 基于 改进 CHI 和 带 权 ECE 结合 (pCHIwECE) 的 特征 选择 方法 。 经 对 比 实验 验证 ，pCHIwECE 方法 
的 查 准 率 、F1l 值 均 优 于 CHI、ECE 及 pCHI、wECE 方法 ， 且 该 方法 的 降 维稳 定性 更 好 。 
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Feature selection method based on combining improved CHI and weighted ECE 


Cai Zhen, Gao Jian, Qin Xiaojun 
(JiangNan Institude of Computing Technology, Wuxi Jiangsu 214083, China) 


Abstract: This paper analyzed the characteristics and deficiencies of chi-square statistics and expected cross-entropy methods 
六 for feature selection of text classification. In order to avoid the poor classification of traditional CHI and ECE methods on 


unbalanced data sets, this paper presented an improved CHI method (pCHI) by introducing adjustment factors and removing 


negative correlation influencing factors, and presented a weighted ECE method(WECE) to compensate the disadvantages of the 


ECE method tending to select high-frequency features of weak distinguishing ability. After synthesizing the two improved 


methods, this paper further proposed a feature selection method based on combining improved CHI and weighted ECE 
(PCHIWECE) . Through comparative experiments, the precision rate and Fl value of the pCHIWECE method are both superior 
to those of the CHI, ECE, pCHI and WECE methods, and moreover, the dimensionality and stability of the method are better. 
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0 3 引 1 ”相关 工作 


文本 分 类 中 是 指 将 大 量 的 文本 按照 预先 定义 的 分 类 体系 归 文本 分 类 常用 向 量 空间 (VSM) 模 型 表示 ， 设 文本 表示 为 

到 一 个 或 者 多 个 类 别 的 技术 ， 该 技术 被 广泛 应 用 于 数据 挖掘 、 忆 ={X 和 w}，N 是 文本 总 数 。 记 (人 切 …Px( 全 表示 特征 在 
机 器 学 习 、 信 息 检 索 等 领域 。 文 本 分 类 大 致 可 分 为 文档 表示 、 大 个 不 同类 别 的 概率 , 大 是 类 别 总 数 ， 即 pi(1) 表示 文档 属于 第 
特征 选择 和 分 类 器 训练 等 。 特 征 选择 是 指 从 一 个 原始 的 特征 空 
间 选 择 一 个 最 优 特征 子 空间 的 过 程 。 由 于 文本 特征 的 “ 维 数 灾 
难 外 ”以 及 不 相关 特征 (噪声) 的 存在 , 特征 选择 对 于 文本 分 类 ”概率 ，F(W 是 包含 特征 t 的 文档 数 
尤其 重要 。 文 本 分 类 常用 的 特征 选择 算法 是 基于 信息 论 和 统计 ”1.1 卡 方 统计 CHI) 
学 思想 设计 的 , 包括 基尼 指数 、 文档 频率 、 信息 增益 、 互 信息 、 卡 方 统计 "是 用 于 度量 特征 t 与 特定 类 别 i 之 间 是 否 具 有 
方 统计、 期望 交叉 、 线 性 判别 分 析 等 。 文 献 [3~6] 对 特 


i 类 中 包含 特征 1 的 条 件 概率 且 2 户 (D) =1。P 为 类 别 i 的 全 局 


吉 


o 


Y 


卡 广 征 选 。 非 独 立 性 的 方式 。 特 征 ! 与 类 别 ;之 间 的 卡 方 统计 量 定义 为 ; 
择 的 常用 方法 及 特点 作 了 详细 阐述 。 针 对 传统 卡 方 统计 和 期 望 ZO NF Op -PY a 
交叉 炳 方法 对 不 平衡 数据 集 和 噪声 干扰 导致 分 类 效果 差 的 问题 ， FOU-FO):P-(-P) 

本 文 提出 了 一 种 基于 改进 CHI 和 带 权 ECE 结合 的 特征 选择 方 特征 {对 于 全 局 卡 方 统计 量 可 以 用 加 权 平均 值 或 最 大 值 计 
法 ， 通 过 对 比 实验 分 析 该 方法 能 有 效 提 高 文本 分 类 的 精度 。 算 ， 公 式 为 
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入 < p 
Xaslt) = ,PY 0) [和 六 
i=l 
2 2 
Yinax (1) = max Yi (1) (3) 


再 按照 倒序 排列 ， 从 而 完成 特征 选择 。 卡 方 统计 量 是 一 个 
标准 化 的 值 ， 其 值 在 同类 别 的 各 个 特征 之 间 具 有 很 强 的 区 分 
度 。 若 特征 t 与 类 别 i 相 互 独立 ， 则 (7) = 0 。 特 征 t 与 类 别 ; 


的 相关 性 越 强 ， 和 (0D) 的 值 就 越 大 ， 此 时 特征 t 所 包含 的 与 类 


别 i 相关 的 信息 就 越 多 。 
1.2 “信息 增益 (IG) 与 期 望 交 又 粹 (ECE) 

信息 增益 "通过 统计 某 一 个 特征 t 在 类 别 i 中 是 否 出 现 的 文 
档 频 数 来 计算 特征 t 对 类 别 i 的 信息 增益 ， 它 考虑 了 特征 t 出 现 
前 后 的 信息 炉 之 差 。 特 征 t 的 信息 增益 公式 为 


IG(?) = -2,P .log(P) 


i=1 


+FD) >》 DOD:log(P(CD) (4) 
i=] 


- 
+F(D) .> (P(D) -log(p,(?) 


i=1 


其 中 : F(D =1- FG)， 户 CO)=1- 记 (0 。 信 息 增 益 IG(t) 的 值 越 


大 ， 特 征 {t 的 区 分 能 力 就 越 大 。 
期 望 交 又 炉 "与 信息 增益 相似 ， 不 同 之 处 在 于 ECE 只 计算 


Fem 


出 珀 
t 的 期 望 交 叉 业 为 


ECEO= -YP .log(P) 


i=l 


(5) 
+F(D):2, p(n) "log(p;()) 


同样 ， 期 望 交叉 焙 ECE (t) 的 值 越 大 ， 特 征 t 的 区 分 能 力 就 
越 大 。 

文献 [9, 10] 表 明 ，I6 的 特征 t 不 出 现 也 可 能 对 类 别 判定 有 
贡献 ， 往 往 是 该 特征 的 贡献 远 小 于 它 所 带 来 的 干扰 。 特 别 是 ， 
在 类 别 和 特征 分 布 是 高 度 不 平衡 的 情况 下 ， 若 
1-F(D) 污 F(t)， 即 绝 大 多 数 特 征 不 出 现 ， 式 (1) 中 IG(t) 的 值 


/ 


0-FGO). 交 G-POOD):log(L- 户 (DO) 决 定 ， 此 时 IG(b) 更 


i=1 
项 向 于 选择 频 度 小 的 词 。ECE 不 考虑 特征 不 出 现在 同类 文档 中 
对 类 别 的 影响 ， 这 正 是 ECE 表 现 优 于 IG 的 原因 。 


2 基于 pCHIwECE 的 特征 选择 方法 


2.1 CHI 分 析 及 改进 
由 式 (1)，CHI 方 法 由 


.了 (DD) 给 出 不 同时 满足 文本 属于 类 


别 i 且 包含 特征 的 情况 ， 


F(D): 户 (D) 给 出 同时 满足 或 同时 不 


见 在 文本 中 的 特征 ， 而 不 考虑 特征 未 出 现 的 情况 。 给 定 特征 


ChinaXiv 合 作 期 刊 


荣 镇， 等 : 基于 改进 CHI 和 带 权 ECE 结合 的 


满足 文本 属于 类 别 i 且 包含 特征 t 的 情况 。 事实 上 ，F(1). p,(?) 


的 值 比 P. 了 PW) 大 或 者 小 取决 于 类 别 i 和 特征 1 之 间 的 相关 程度 。 
特征 与 类 别 包含 正 相 关 和 负 相 关 这 两 种 情况 。 令 


7T= 居 (人 Pi( 人 一 已 .FOOD ， 若 志 >0 时 ， 


了 pi;(1) > 五 ， 特 征 t 与 


~ 
节 
| 
n 
并 
汝 
全 


类 别 i 正 相关 ， Xi (D) 的 值 越 大 ， 文 档 中 包含 的 特征 t 属 于 i 


的 可 能 性 越 大 ， 反 之 ， 若 T+ <0 〇 时，p,(1) <P， 特 征 {与 类 别 i 


负 相关 ， (1) 的 值 越 大 ， 文 档 中 包含 的 特征 /不 属于 ;类别 的 


可 能 性 越 大 。 传 统 CHI 统 计 方 法 只 考虑 了 特征 词 在 所 有 文档 集 

中 出 现 的 文档 的 数量 ， 而 没有 考虑 特征 词 在 某 一 篇 文档 中 出 现 

的 次 数 ， 从 而 夸大 了 低频 词 的 作用 。 在 不 平衡 的 样本 中 ， 分 类 

效果 下 降 明显 。 

针对 CHI 方 法 夸大 低频 词 的 缺陷 ， 本 文通 过 引入 特征 频率 
因子 a 减少 低频 特征 对 文本 分 类 的 干扰 。a 的 计算 公式 为 
Pe A) 

2 D-DD+1 


jl 


(6) 


天 
其 中 : 矿 (1) 表示 特征 在 类 别 ! 中 出 现 的 频数 ， > 态 (D) 表示 特 


加 | 


征 t 在 所 有 类 别 中 出 现 的 频数 ， 


因子 w; (0 表示 特征 t 在 某 个 特 


定 类 别 ; 中 出 现 的 频数 与 所 有 其 他 类 别 中 出 现 的 频数 之 比 ， 式 
(6) 分 母 加 1 是 为 了 防止 发 生 特征 1 仅 分 布 在 类 别 i 中 ， 以 致 的 


分 母 为 0 的 情况 出 现 。 若 Ci; (1) 越 大 ， 特 征 1 在 类 别 ; 中 出 现 频 


数 越 多 ， 在 其 他 类 别 中 出 现 频 数 越 少 ， 由 此 判别 特征 对 类 别 能 


够 提供 更 大 区 分 能 力 。 反 之 ， Ci (1) 越 小 ， 该 特征 t+ 的 区 分 能 


力 越 小 。 
除去 其 特征 与 类 别 的 负 相关 情况 ， 结 合 公式 (D) 、 (6) 
改进 后 的 卡 方 统计 公式 为 
N.F2O).(PO-P2 
TI 
0 , p(D)<P 


2.2 ECE 分 析 及 加 权 
ECE 方 法 既 考虑 了 特征 和 类 别 的 相关 性 ， 同 时 也 兼顾 了 特 
征 频率 和 类 别 频率 之 间 的 差 值 ， 但 该 方法 也 存在 明显 不 足 。 


式 (5) ， 如 果 出 现 的 p,(7) 大 且 愉 小 的 情况 ， 此 时 特征 1 对 分 类 


的 影响 大 ， 相 应 的 ECE (t) 值 就 大 。 由 此 说 明 ECE 方 法 没有 考虑 
村 征 在 数据 集 类 间 的 分 布 情况 ， 会 造成 该 算法 倾向 于 选择 区 分 
能 力 不 强 的 高 频 特征 ” 。 
针对 这 些 不 足 ， 本 文 综 合 特征 出 现 与 否 以 及 类 间 出 现 比 


[ull 
Wh 
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这 两 个 因素 ，| 


息 量 。 


词 频 术 (1) 作为 权 习 


征 所 含有 的 信息 量 


归 


化 处 理 


t(D) 


0(D) = -一 一 一 一 


> Po 


JI 


的 计算 方式 ， 评 价 一 个 特 


后 权重 计算 公式 为 


(8) 


结合 式 (5) (8) ， 加 权 后 的 期 望 交 叉 业 公 式 为 


WECE(D) = -DP -log(P) 
i=] 


(9) 


+FO): Dp 00) log(p Oo0) 


它 反映 了 文本 类 别 ; 的 概率 分 布 五 与 文档 属于 第 ;类 中 包含 


特征 ! 的 条 件 


大 ， 对 文本 分 类 的 影响 也 就 越 大 。 
2.3 ”pCHIwECE 特征 选择 方法 


概率 分 布 p;(1) 之 间 的 距离 。 特 征 的 其 


望 交 义 烂 越 


通过 分 析 CHI 和 ECE 的 特点 与 不 足 ， 本 文 分 另 


上 对 这 两 种 特征 


选择 方法 做 了 优化 处 理 。 
于 pCHI 和 aECE 结 合 (pCHIOECE) 的 特有 
pCHIwECE 的 设计 流程 ， 如 图 1 所 示 。 


整合 两 种 优化 后 的 方法 ， 从 而 得 到 基 
征 选择 方法 。 


ECE 


pCHIOECE 


改进 CHI (pCHI) 方 法 ， 降 低 了 


pCHI@®ECE 的 设计 流程 
氏 频 特征 对 文 
的 相 较 于 CHI 


和 去 除 负 相 关 因 素 影响 ， 使 得 pCH 
能 力 。wECE 方 法 减轻 了 ECE 方 法 对 
重 ， 一 定 程度 上 提高 了 ECE 的 分 类 ? 
CHI 和 ECE 各 自 方法 的 特点 ， 不 仅 缓解 低频 词 
集中 出 现在 特定 类 别 且 频 数 高 的 特征 
定性 更 好 。pCHI@ECE 计 算 公 式 为 


PCHI@ECE() = X(t) -WECE() 
= max x"()-wECE() 
3 ”实验 结果 及 分 析 


3.1 实验 环境 和 数据 


本 分 类 的 干扰 
有 更 好 的 降 维 


区 分 能 力 弱 的 高 频 特 征 的 倚 
效果 。pCHIwECE 方 法 
缺陷 
， 进 而 使 得 分 类 效果 和 稳 


士 人 
结合 


， 也 可 选择 出 


实验 环境 为 在 Windows 10 x64 操 作 系 统 ，Inter" Core™ 


i5-5250U @1.6 GHz 处 理 器 ，4 GB 内 存 的 PC， 


开发 工具 为 


Ch 
: 基于 改进 CHI 人 xX! 


aXiv 合 作 
WA 的 特 上 Ey 


葵 镇 ， 等 

Python3. 6。 通 过 调用 Python 的 Sklearn 模 块 编程 实现 本 文 引 
用 、 改 进 和 提出 的 5 种 特征 选择 方法 ， 选 用 朴素 贝 叶 斯 NB) 分 
类 器 完成 分 类 。 

数据 集 来 源 是 复旦 大 学 中 文 语 料 库 共 包含 20 个 类 别 9833 
篇 ， 各 类 文本 数 分 别 为 空间 642， 能 源 33， 电 子 28， 通 信 27， 
计算 机 1358， 矿 产 34， 交 通 59， 艺 术 742， 环 境 1218， 农 业 
1022， 经 济 16 ， 医 疗 53， 军 事 76， 政 治 1026， 体 育 


01， 法 律 52 


1254， 文 学 34， 教 育 61， 哲 学 45， 历 史 468。 从 各 类 文本 分 布 


看 ， 数 据 集 是 极 不 平衡 的 。 本 实验 将 其 中 的 80% 作 为 训练 集 
20% 作 为 测试 集 
评价 指标 


3.2 


人 Ro 


本 文 使 
标 ”: 查 准 
本 分 类 问题 ， 
(TP)、 假 正 例 


疆 晶 


[11] 


] 的 评价 


率 (precision)、 


标 ; 


是 文本 分 类 中 普遍 使 


根据 真实 类 


别 与 预测 类 别 的 组 合 划 


(FP) 、 真 反 


例 (TN)、 


结果 的 “混淆 矩阵 ”如 表 1 所 示 。 


表 1 


查 全 率 (recal1) 惧 


mt 


的 性 能 评价 指 
IF1 值 。 对 于 文 


假 反 例 (FN) 


分 类 结果 的 “ 混 光 矩阵 ” 


分 为 真正 例 


了] 种 情形 ， 


分 类 


预测 结果 


真实 情况 


正 例 
(预测 属于 茶 
类 别 的 文本 


反例 


《预测 不 属于 
某 类 的 文本 


数 ) 


(真实 


正 例 
属于 某 类 


的 文本 数 ) 


TP 


FN 


反例 
(真实 不 属于 某 


文本 数 ) 


FP 


查 准 


查 全 率 re 


precision = 


call 定 义 为 


recall = 


标 。 
3.3 实验 


实验 通过 
较 分 析 ， 从 而 


率 brecision 定 义 为 


TP 


TP 


TP+rFP 


TP+FN 
准 率 和 查 全 率 的 调和 平均 定义 的 ，F1 的 度量 为 


2. precision: recall 


Fl= 


precision + recall 


结果 与 分 析 


将 CHI、 
E 本 文 提 


验证 


ECE 与 pCHI、 


准 率 和 查 全 率 , 本 文 使 月 


出 的 算法 分 类 了 


E 确 性 


HF1 值 作为 评价 指 


Q@ECE 以 及 pCHI@®ECE 进 行 比 
和 性 能 


BEo 
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图 2 是 传统 CHI 和 ECE 特 征 


600 650 700 750 850 


特征 数量 
图 2 ”CHI 和 ECE 方 法 的 查 准 率 对 比 
选择 的 查 准 率 对 比 ， 由 图 2 可 得 ， 


800 


这 两 种 方法 在 不 同 特征 
率 相对 较 高 ， 特 征 


查 准 


数量 下 的 查 准 率 有 明显 波动 ，ECE 整 体 
数量 大 于 650 时 ，CHI 的 查 准 率 更 稳定 。 
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